七张图了解希拉里和川普的语言风格
新闻实验室微信公号:newslab
无论对于学术研究而言,还是对于数据新闻而言,政客的公开发言都是重要的数据来源。随着自然语言处理的发展和普及,越来越多的媒体利用这些发言数据进行报道。
数据科学家Maixent Chenebaux对两位总统候选人希拉里和川普接受所在党派提名时发表的演讲进行了统计,并将结果发表在了Medium上(https://medium.com/reputation-squad/semantics-what-does-data-science-reveal-about-clinton-and-trump-afdf427e833b#.qfmsohs90),文中所配的七张图片由设计师Fanny Algeyer创作。
川普的演讲长达7460个单词,不过单词量很小,只需要掌握480个词就可以覆盖80%的演讲内容了(同一个词根的词算作一个词,比如leader和leaders算作一个词,are和am算作一个词)。
相比之下,希拉里的演讲80%的内容可以用665个词完成。
川普喜欢的词:中国和墨西哥皆榜上有名。既强调美国现在的状况是多么糟糕(“problem”、“disaster”),又强调自己和自己的目标是多么棒(“great”、“nice”)。
希拉里喜欢的词:没有外国的名字,更多提及的是国内事务,强调的信息是要团结,会努力。
这些词的计算是通过一个公式得出的,简单来说:它们是在某一个候选人演讲中经常出现、同时在另一个候选人演讲中很少出现的词。比如说,“really”在川普的演讲中出现了15次,在希拉里的演讲中只出现了1次。详情可以参见Medium上的原文。
川普在自己的演讲里提了“Trump”10次,而希拉里只在演讲中提了“Clinton”一次,讲的还是她老公比尔・克林顿。
“谢谢”是两个人都频繁使用的词,不过两人感谢的对象不一样。希拉里更多是感谢个人(她的党内初选竞争对手桑德斯、她女儿切尔西等等),而川普感谢的是给他鼓掌的一群人。
川普的语言风格简单,句子很短。他的发言只比希拉里的长23%,但他的句子数却比希拉里多了54%。
不过,奥巴马才是长句之王。他在2008年接受党内提名时发表的演讲,句子长度有川普和希拉里加起来那么长,达到了平均每句话25.7个词。
噢,那是个多么不同的时代啊。如果奥巴马是今年参选,他多半也会主动缩短句子长度吧。
这是一则非常简单的数据新闻作品,一两个人就可以完成。对演讲内容的数据分析,在R或者Python里面写一些并不复杂的代码就可以得出结果。我个人认为:在高校的数据新闻课程中,可以以这样的案例作为模仿对象,请学生进行类似的分析和呈现,是很好的练习。选用的数据,既可以是国外的英文语料,也可以是中国的讲话、文件、报纸社论等。
如果要进一步引导学生的思考,可以请大家对比和反思不同的计算方法得出的结果,以及对于同样数据的不同解读,让大家体会从“数据”到“真相”之间的跳跃。在Medium的原文下面就有不少有意思的讨论,有些人指责这是“伪科学”、“有偏见的文章”,作者也做了回应,有兴趣的朋友可以去看看(好像要翻墙)。
相比起数据分析来说,这些图反倒不是那么轻易就可以完成的。好的插画师是媒体中比较缺乏的人才,有这方面天赋的同学可以考虑朝这个方向发展。